鐵人賽Day29 - 課程總結 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 11 屆 iThome 鐵人賽

DAY 29

Google Developers Machine Learning

鐵人賽Day29 - 課程總結

11th鐵人賽

3725 瀏覽

這次 Machine Learning with TensorFlow on Google Cloud Platform 的課程中，如 Day1 提到的，共有 5 個子課程：

今天就來整理這次鐵人賽的文章，也方便日後自己或是想參考的人可以快速查找相關的主題。

這個部分主要在了解ML的商用方式和過程，並且知道何時該使用ML以及在GCP上使用的優點。

Day2 ：簡介如何使用ML商用化的方式
- 介紹ML產品建立的過程與為何使用GCP與Google的教學資源
Day3 ：了解 Google 所謂的 AI-first 策略是什麼意義
- AI與ML的差別、ML的兩個階段、什麼時候該使用ML，以及使用ML的策略應該是如何
Day4 ：了解 Google 在使用ML商用化的經驗與知識
- 介紹Google在建構ML產品上的經驗、ML模型會有偏見、衡量模型的指標混淆矩陣與訓練模型時要考慮到包容性
Day5 ：介紹雲端開發環境，Google Cloud Platform (GCP)
- 介紹GCP的基本操作
- [GCP Lab實作-1]：租一個虛擬機器(Virtual Machine)來處理地震資料
Day6 ：介紹雲端開發環境，Cloud Datalab
- 介紹如何使用 Cloud Datalab 與 ML APIs
- [GCP Lab實作-2]：使用 Datalab 和 BigQuery 來分析資料
- [GCP Lab實作-3]：使用ML的API

這個部分主要在了解ML的基礎知識，包含術語、模型的優化、模型泛化的重要性和訓練模型時分割資料的方式與必要性。

這個部分主要在了解 TensorFlow 的運作和程式撰寫，並且如何結合 GCP 來做到規模化、分散式的模型訓練。

Day11 ：了解 TensorFlow 的核心元件和實際操作 TensorFlow
- 介紹 TensorFlow 的核心元件、計算圖的運算概念、Tensor是什麼以及 tf.get_variable() 與 tf.placeholder() 之間的差異
Day12 ：透過實作了解 TensorFlow
- 實際操作簡單的 TensorFlow 程式並且說明除錯的方式
- [GCP Lab實作-6]：撰寫低階的TensorFlow程式
Day13 ：了解Estimator API並實際操作
- 介紹 Estimator API 以及使用它的多項優點
- [GCP Lab實作-7]：在TensorFlow中使用Estimator API撰寫ML模型
Day14 ：了解遇到巨大資料集時如何訓練模型
- 介紹 Dataset API 和如何在巨量資料上做訓練
- [GCP Lab實作-8]：在TensorFlow使用批次做巨量資料的訓練
Day15 ：了解何時需要分散式訓練以及如何使用
- 了解使用 Estimator API 來做分散式訓練
- [GCP Lab實作-9]：在TensorFlow使用批次做巨量資料的訓練
Day16 ：了解如何在GCP訓練、監測和部署ML模型
- 使用 GCP 訓練、監測和部署ML模型，了解規模化應用時的做法
- [GCP Lab實作-10]：使用 Cloud AI Platform 規模化 TensorFlow

這個部分主要在了解特徵工程的重要性與做法，並且透過 GCP 來達到規模化、快速、一致的資料前處理。

Day17 ：了解特徵工程的領域有哪些
- 介紹如何將原始資料轉為特徵、數值特徵和種類特徵的差異、機器學習和統計的差別
- [GCP Lab實作-11]：使用新的特徵來增加模型準確度
Day18 ：了解前處理和特徵建構的做法
- 介紹 Cloud Dataflow，在大量的資料上做快速的前處理和特徵建構
- [GCP Lab實作-12]：簡單的 Dataflow pipeline
Day19 ：了解如何大規模的執行 data pipeline
- 介紹在 Dataflow pipeline 中，Map 和 Reduce 操作
- [GCP Lab實作-13]：MapReduce in Dataflow
Day20 ：了解如何使用 Cloud Dataprep 做資料前處理
- 介紹 Cloud Dataprep，建立一個資料轉變 pipeline
- [GCP Lab實作-14]：在 Cloud Dataprep 中計算時間窗口的特徵
Day21 ：了解特徵組合的目的與做法
- 介紹特徵組合的做法
- [GCP Lab實作-15]：利用特徵工程來增進ML模型
Day22 ：了解如何使用 tf.transform 來實作特徵處理和特徵建立
- 介紹 TensorFlow Transform，並且用其來做特徵工程
- [GCP Lab實作-16]：探索 tf.transform

這個部分主要在了解ML訓練當中一些重要的關鍵點如超參數，神經網路的概念和嵌入方法的強大。

Day23 ：了解ML裡面的藝術如正規化、學習率和批次大小
- 介紹正規化、學習率和批次大小
- [GCP Lab實作-17]：藉由手調超參數來增進模型精準度
Day24 ：了解超參數與如何調整其值
- 介紹參數與超參數的差異、超參數的搜索和調整
- [GCP Lab實作-18]：藉由 AI Platform 調整超參數來增進模型精準度
Day25 ：深入了解正規化和邏輯迴歸
- 介紹正規化的目的、L1 norm 與 L2 norm的差異和邏輯迴歸
Day26 ：了解和訓練神經網路
- 介紹神經網路的由來與相關名詞、激活函數與訓練神經網路需要注意的問題
- [GCP Lab實作-19]：使用神經網路來建構ML模型
Day27 ：認識 Embedding
- 介紹嵌入(Embedding)的概念和其強大的特性
Day28 ：了解如何撰寫客製化 Estimator
- 了解當需要自己設計模型時，如何撰寫客製化的 Estimator 來訓練模型
- [GCP Lab實作-20]：使用客製化 Estimator

Day #	Lab #	主旨
Day2	---------	簡介如何使用ML商用化的方式
Day3	---------	了解 Google 所謂的 AI-first 策略是什麼意義
Day4	---------	了解 Google 在使用ML商用化的經驗與知識
Day5	Lab 1	介紹雲端開發環境，Google Cloud Platform (GCP)
Day6	Lab 2, 3	介紹雲端開發環境，Cloud Datalab
Day7	---------	了解在ML中所會提到的術語以及重要知識
Day8	---------	了解模型是怎麼優化的
Day9	Lab 4	了解泛化和取樣的重要
Day10	Lab 5	了解資料的探索和分割
Day11	---------	介紹 TensorFlow 的核心元件
Day12	Lab 6	透過實作了解 TensorFlow
Day13	Lab 7	了解Estimator API並實際操作
Day14	Lab 8	了解遇到巨大資料集時如何訓練模型
Day15	Lab 9	了解何時需要分散式訓練以及如何使用
Day16	Lab 10	了解如何在GCP訓練、監測和部署ML模型
Day17	Lab 11	了解特徵工程的領域有哪些
Day18	Lab 12	了解前處理和特徵建構的做法
Day19	Lab 13	了解如何大規模的執行 data pipeline
Day20	Lab 14	了解如何使用 Cloud Dataprep 做資料前處理
Day21	Lab 15	了解特徵組合的目的與做法
Day22	Lab 16	了解如何使用 `tf.transform` 來實作特徵處理和特徵建立
Day23	Lab 17	了解ML裡面的藝術如正規化、學習率和批次大小
Day24	Lab 18	了解超參數與如何調整其值
Day25	---------	深入了解正規化和邏輯迴歸
Day26	Lab 19	了解和訓練神經網路
Day27	---------	認識 Embedding
Day28	Lab 20	了解如何撰寫客製化 Estimator